23.4 제어 정책의 직접 최적화 (End-to-End Policy Optimization) 23.4 제어 정책의 직접 최적화 (End-to-End Policy Optimization) 23.4.1 시간 관통 역전파(Backpropagation Through Time, BPTT)를 이용한 제어 23.4.2 해석적 그라디언트(Analytic Gradient)와 궤적 최적화(Trajectory Optimization) 23.4.3 미분 가능한 모델 예측 제어(Differentiable MPC) 구현 23.4.4 카오스(Chaos)와 그라디언트 소실/폭발 문제의 해결 (The Exploding Gradient Problem)